查看原文
其他

中心成果 |《中文句法语义分析及其应用》项目成果介绍

高而杰 语言资源高精尖创新中心 2022-06-09

 导 语 


自2016年成立至今,语言资源高精尖创新中心(以下简称“中心”)已经走过近五年的建设发展历程,并将于2021年4月迎来五年建设终期评估。近五年来,中心签约23个在研项目,着力建设“语言资源库”、“语言文化博物馆”“‘语言通’智能服务”三大工程,取得了诸多丰硕成果,具体包括18个语言数据库(集)、11个应用系统。其中,18个语言数据库(集)包括:世界语言基本信息库、一带一路国家语言文化核心资源集、中国周边国家(6国)语言资源集、用于语言识别的世界语言资源集、海外华语资源库、俄汉大规模语汇库与句对库、中阿语言资源集、中俄日韩英对齐4000词汇库、用于句法分析的大规模汉语语料库、汉语国际教育优质学习资源集、全球汉语中介语语料库、面向智能语音教学的汉语中介语语音库、中俄经贸合作信息库与双语合同文本库、冬奥会多语言术语资源库、面向冬奥会的机器翻译资源库、大规模冬奥项目知识图谱资源集、中华经典诗词资源集、汉学研究文献库和人才库等。中心开发的应用系统包括:冬奥术语库系统、冬奥机器翻译系统、智能化冬奥项目问答原型系统、中俄语商通系统、海外华语资源系统、SAIT汉语智能发音教学系统、“文心”智能作文批改系统、全球语言文化资源采录展示系统、《疫情防控外语通》在线查询系统等。本公众号自2020年12月17日起,推出“中心成果”系列文章,陆续介绍中心各项目的资源、系统成果。今日,我们推送中文句法语义分析及其应用项目成果。





 项目介绍 


《中文句法语义分析及其应用》项目由语言资源高精尖创新中心特聘研究员、北京语言大学荀恩东教授主持开展。项目于2017年4月立项,2020年9月开展结项工作。

人工智能发展迅速,语言智能是人工智能的重要研究方向,中文句法语义分析是语言智能的核心技术,对推动语言智能的研究与应用有至关重要的作用。目前,在英语等印欧语言中,句法语义分析已取得良好的表现。而中文由于缺少形式标记,存在中文意合和流水句的特点,使得计算机缺少足够的特征去捕捉上下文的信息,中文在该方面始终未取得实质性突破。

本项目以中文句法语义分析作为核心技术研发目标,构建了一个研究和开发的软件平台,获取分析器所需的多层次语言知识,并构建相应的知识库:包括词典知识、规则知识、语块知识、中文动词论元知识等,以探索有知识引导、充分利用大数据和深度学习方法的中文句法语义分析的新方法。



 项目成果 


规范标准

本项目为实现大规模中文句法语义资源建设目标,制定了《语篇句子成分标注规范》《块依存篇章标注规范》。在这两个基础标注规范的指导下,项目组实现了句子结构、“块依存”资源的大规模建设。

资源成果

课题组主要理论研究成果为“意合图”中文语义表征框架。中文句法语义分析是一项语言工程,需要较好的可计算性,并达到较高的形式化程度。课题组充分注意中文的特点,广泛借鉴各类先进语言学理论和计算理论,总结新的理论框架,提出了以“意合图”为表征形式、“块依存”为核心的理论,在面向语言信息处理任务中取得实用效果。

“意合图”指的是面向应用场景的语义表征图,为单根有向图。图中节点对应承载语义概念的语言单元,边为连接两个节点单元的语义关系。“意合图”的生成基于“块依存”。“块依存”指的是以块为基础单元,构建块间语义关系的策略及算法。

意合图示例

“意合图”的构建基于“块依存”文法。在“意合图”的表征形式上,充分借鉴知识和事理图谱三元组集合形式,同时融合复杂特征集的表示形式,使“意合图”的语义表征形式灵活,承载语义内容完备。课题组开展了面向中文句法语义分析的大规模、深层次的多颗粒度语言知识工程。

1、“意合图”标注。针对提出的中文句法语义的“意合图”表示,验证其合理性,同时也为后续工作提供验证数据,项目组启动了中文“意合图”标注工程。目前,定制了“意合图”标注规范和辅助标注软件,已经标注“意合图”约1万句。

2、中文动词内结构标注。对多字中文动词,给出内部结构标注,例如给出结构类型、核心词、是否可离合使用等。标注了动词约2万词,此项工作已经完成。

3、中文“块依存”结构标注。对中文句子区分句法成分组块、句间衔接组块和辅助组块,通过组块序列呈现句子基本骨架。标注了约60万个小句。

4、中文搭配标注。对中文大数据中的组块搭配现象进行了大规模调查,形成了高质量搭配库,规模达900万实例以上。


技术成果

项目组建设开发了中文句法语义分析平台,该平台用于进行句法语义分析器的知识管理和基于网络的协同开发。句法语义分析器为平台的核心组件,平台为分析器的高效运行和功能发挥提供支持。目前这个平台主要功能已经开发完毕。其中,句法语义分析器实现的核心功能包括:

1、词法模块:采用不同方法,设计三个词法分析器,具备中文分词、词性标注和命名实体识别等功能。

2、边界模型:设计10元文法的中文边界模型,用此模型完成二叉树生成。

3、设计块依存分析模型,用于基于词分析与边界识别结果实现语块依存关系识别。


中文句法语义分析平台-演示视频


延伸阅读

中心成果 |《面向北京冬奥会的机器翻译》项目资源和系统成果介绍中心成果 |《汉语中介语语料库建设创新工程》项目成果介绍中心成果 |《基于知识图谱的北京冬奥智能问答系统》项目成果介绍
中心成果 |《新选中国名诗1000首:当代诗学名家经典选释系列》项目成果介绍


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存